[微表情识别]3D-CNN--MicroExpSTCNN

2021-03-02

本文关键点：考虑空间和时间信息

Result
本文关键点：考虑空间和时间信息
传统特征的缺点
的主要缺点是从视频中提取的大部分是表面信息，缺乏抽象特征表示所需的信息。
CNN直接与RNN结合的缺点
这些方法通常使用CNN来提取每一帧的空间特征，并馈送给RNN来编码表情视频中帧之间的时间相关性。因此，这些方法不能同时编码视频特征之间的时空关系。为了克服现有技术的局限性，我们提出了两种三维CNN模型（microxpstcnn和microxpfusenet），通过对视频进行三维卷积运算，同时提取空间和时间信息。
本文的主要贡献总结
- 1）提出了一种基于MicroExpSTCNN模型的表情视频分类方法。我们已经使用所提出的MicroExpSTCNN模型实现了超过基准微表达式数据集的最新性能。
- 2）提出了一种双流microxpfusenet模型，该模型仅结合从眼睛和嘴巴区域提取的特征。
- 3）对基于三维CNNs的眼、口区域中后期融合进行了实验研究。
- 4）利用显著性图分析了不同人脸特征的影响。
- 5）在微表情识别中，也进行了不同三维核大小的实验。
Model
- Proposed MicroExpSTCNN Model
  拟议的MicroExpSTCNN被设计为在微表达过程中利用时空特征，而使用3D-CNN则具有最高的优先级。 MicroExpSTCNN体系结构如图1所示。MicroExpSTCNN模型的输入维为w×h×d，其中w和h在本文中固定为64，而d的值取决于所使用的数据集。
  拟议的MicroExpSTCNN模型由3D卷积层，3D池化层，完全连接的层，激活函数和dropouts组成。 3D卷积层用于通过使用3D内核应用卷积运算来提取空间和时间特征。与仅在空间方向上使用过滤器的2D CNN相比，3D-CNN在时间方向上也使用过滤器。 3D池化层在保留重要特征的同时，逐渐减小了3D卷积层的尺寸输出。 3D池层在较小的时空窗口中选择最佳的要素表示。网络中丢弃的使用减少了模型对训练样本的过度拟合[41]。丢弃用于在建议的网络中添加正则化功能。
  平坦层不过是将多维输入扩展为全连接层所需的一维数组而已。需要密集层或完全连接的层以分层特征提取的形式在网络中引入更多的非线性。 softmax层用于为正在使用的数据集的类别生成类别分数。
- Proposed MicroExpFuseNet Model
  
  前面小节中描述的拟议MicroExpSTCNN将整个面部区域视为输入。
  然而，研究人员观察到，与面部的其他区域相比，眼部和嘴部区域对表情分析的贡献更大[39]，[42]，[43]。眼睛区域用于段等人的特征提取。 [39]。岩崎等。已经分析了眼和嘴同时运动的相关性[42]。 Agrawal等。
  已经利用左眼，右眼和嘴巴区域提取不同的手工设计特征并将其输入SVM [43]。仅考虑眼睛和嘴巴区域会导致计算效率高的模型。因此，在本文中，我们提出了一种基于区域的3D-CNN模型（即MicroExpFuseNet模型）。在MicroExpFuseNet模型中，仅将面部的眼睛和嘴巴区域用作两个单独的3D时空CNN的输入。随后将两个CNN融合并融合到单个网络中。我们使用DLib人脸检测器1对表情视频中的每个帧进行预处理，以检测眼睛和嘴巴区域，该检测器用于通过首先检测人脸中的68个界标来检测和对齐每个帧中的人脸。这些地标用于修剪眼睛和嘴巴区域。基于不同的融合策略（即在不同阶段），我们提出了MicroExpFuseNet模型的两个版本：中级MicroExpFuseNet和后期MicroExpFuseNet。
  - Intermediate MicroExpFuseNet Model
    顾名思义，在Intermediate MicroExpFuseNet模型中，两个3D卷积神经网络（3D-CNN）的特征在某个中间级别融合。面部的眼睛部分（包括两只眼睛）作为输入被馈送到3D-CNN之一，而嘴部作为输入被馈给另一3D-CNN。从眼睛和嘴巴区域提取的特征在某个中间级别融合在一起。所建议的中间MicroExpFuseNet体系结构如图2所示。
  - Late MicroExpFuseNet Model
    顾名思义，在Late MicroExpFuseNet的模型中，两个三维CNN的特征在最后的致密层之前被融合。在这个模型中，脸部的眼睛部分作为一个3D CNN的输入，嘴巴部分作为另一个3D CNN的输入。在最后一个完全连通层，将从眼睛和嘴巴区域提取的特征融合在一起。
    图3显示了所提出的新型MicroExpFuseNet架构。该模型还具有两个独立的三维CNN，每个CNN由叠加组成，一个三维卷积层具有32个大小为3 x 3 x 15的滤波器，一个三维池层具有3 x 3 x 3的核大小，一个平坦层实现一维特征向量。两种网络都采用了漏层、平坦层和密集层。两个网络在最后的致密层之前融合。表三从不同层的过滤维数和输出维数的角度给出了所提出的MicroExpFuseNet模型的网络结构。在表III中，CAS（ME）b2数据集考虑了输入维。